The application of natural language processing (NLP) to cancer pathology reports has been focused on detecting cancer cases, largely ignoring precancerous cases. Improving the characterization of precancerous adenomas assists in developing diagnostic tests for early cancer detection and prevention, especially for colorectal cancer (CRC). Here we developed transformer-based deep neural network NLP models to perform the CRC phenotyping, with the goal of extracting precancerous lesion attributes and distinguishing cancer and precancerous cases. We achieved 0.914 macro-F1 scores for classifying patients into negative, non-advanced adenoma, advanced adenoma and CRC. We further improved the performance to 0.923 using an ensemble of classifiers for cancer status classification and lesion size named entity recognition (NER). Our results demonstrated the potential of using NLP to leverage real-world health record data to facilitate the development of diagnostic tests for early cancer prevention.
translated by 谷歌翻译
Approximation fixpoint theory (AFT) is an abstract and general algebraic framework for studying the semantics of nonmonotonic logics. It provides a unifying study of the semantics of different formalisms for nonmonotonic reasoning, such as logic programming, default logic and autoepistemic logic. In this paper, we extend AFT to dealing with non-deterministic constructs that allow to handle indefinite information, represented e.g. by disjunctive formulas. This is done by generalizing the main constructions and corresponding results of AFT to non-deterministic operators, whose ranges are sets of elements rather than single elements. The applicability and usefulness of this generalization is illustrated in the context of disjunctive logic programming.
translated by 谷歌翻译
在多机器人应用程序中,对大状态空间的推断通常可以分为较小的重叠子问题,然后可以在状态的“单独”子集上并行解决。为此,开发了因子图分散数据融合(FG-DDF)框架,以分析和利用异质贝叶斯分散融合问题的有条件独立性,其中机器人在不同的本地重叠随机状态上更新和融合PDF。这允许机器人有效地使用较小的概率模型和稀疏消息传递到较大的全局关节状态PDF的相关局部部分,同时考虑了机器人之间的数据依赖性。尽管先前的工作需要限制有关网络连接性和模型线性性的假设,但本文放宽了这些假设,以验证FG-DDF在更一般的环境中的适用性和鲁棒性。我们制定了一个新的异质融合规则,该规则将概括均匀的协方差相交算法,并在通信删除下使用非线性运动/观察模型在多机器人跟踪和本地化方案中测试它。仿真和线性硬件实验表明,实际上,FG-DDF在这些更实用的操作条件下继续提供一致的过滤估计,同时将计算和通信成本降低了95%以上,从而实现了可扩展现实世界中的多项式的设计 - 机器人系统。
translated by 谷歌翻译
在视频分析中,背景模型具有许多应用,例如背景/前景分离,变更检测,异常检测,跟踪等。但是,尽管在静态相机捕获的视频中学习这种模型是一项公认的任务,但在移动相机背景模型(MCBM)的情况下,由于算法和可伸缩性挑战,成功率更加重要。由于相机运动而产生。因此,现有的MCBM在其范围和受支持的摄像头类型的限制中受到限制。这些障碍还阻碍了基于深度学习(DL)的端到端解决方案的这项无监督的任务。此外,现有的MCBM通常会在典型的大型全景图像或以在线方式的域名上建模背景。不幸的是,前者造成了几个问题,包括可扩展性差,而后者则阻止了对摄像机重新审视场景先前看到部分的案例的识别和利用。本文提出了一种称为DEEPMCBM的新方法,该方法消除了上述所有问题并实现最新结果。具体而言,首先,我们确定与一般和DL设置的视频帧联合对齐相关的困难。接下来,我们提出了一种新的联合一致性策略,使我们可以使用具有正则化的空间变压器网,也不是任何形式的专业化(且不差异)的初始化。再加上在不破坏的稳健中央矩(从关节对齐中获得)的自动编码器,这产生了一个无端到端的无端正规化MCBM,该MCBM支持广泛的摄像机运动并优雅地缩放。我们在各种视频上展示了DEEPMCBM的实用程序,包括超出其他方法范围的视频。我们的代码可在https://github.com/bgu-cs-vil/deepmcbm上找到。
translated by 谷歌翻译
复杂的事件处理(CEP)是一组方法,可以使用复杂和高度描述性模式从大规模数据流中提取有效的知识。许多应用程序,例如在线金融,医疗保健监控和欺诈检测,使用CEP技术来实时捕获关键警报,潜在威胁或重要通知。截至今天,在许多领域,模式是由人类专家手动定义的。但是,所需的模式通常包含令人费解的关系,而人类很难检测到,并且在许多领域中,人类的专业知识都是稀缺的。我们提出了救赎主(基于加固的CEP模式矿工),这是一种新颖的增强和主动学习方法,旨在采矿CEP模式,允许在减少所需人类努力的同时提取知识的扩展。这种方法包括一种新颖的政策梯度方法,用于庞大的多元空间,以及一种结合强化和积极学习以进行CEP规则学习的新方法,同时最大程度地减少培训所需的标签数量。救赎主的目标是使CEP集成在以前无法使用的域中。据我们所知,救赎主是第一个提出事先观察到的新CEP规则的系统,并且是第一种旨在增加专家没有足够信息的领域模式知识的方法。我们对各种数据集的实验表明,救赎主能够扩展模式知识,同时超过了几种用于模式挖掘的最先进的强化学习方法。
translated by 谷歌翻译
在过去的十年中,神经网络(NNS)已被广泛用于许多应用程序,包括安全系统,例如自主系统。尽管采用了新兴的采用,但众所周知,NNS容易受到对抗攻击的影响。因此,提供确保此类系统正常工作的保证非常重要。为了解决这些问题,我们介绍了一个修复不安全NNS W.R.T.的框架。安全规范,即利用可满足的模型理论(SMT)求解器。我们的方法能够通过仅修改其重量值的一些重量值来搜索新的,安全的NN表示形式。此外,我们的技术试图最大程度地提高与原始网络在其决策边界方面的相似性。我们进行了广泛的实验,以证明我们提出的框架能够产生安全NNS W.R.T.的能力。对抗性的鲁棒性特性,只有轻度的准确性损失(就相似性而言)。此外,我们将我们的方法与天真的基线进行比较,以证明其有效性。总而言之,我们提供了一种算法以自动修复具有安全性的算法,并建议一些启发式方法以提高其计算性能。当前,通过遵循这种方法,我们能够产生由分段线性relu激活函数组成的小型(即具有多达数百个参数)的小型(即具有多达数百个参数)。然而,我们的框架是可以合成NNS W.R.T.的一般框架。一阶逻辑规范的任何可决定片段。
translated by 谷歌翻译
在本文中,我们提出了时间序列分类方法的创新转移学习。我们没有使用UCR存档中的现有数据集作为源数据集,而是生成了15,000,000个合成单变量时间序列数据集,该数据集是使用我们唯一的合成时间序列生成器算法创建的,该数据可以生成具有不同模式和角度和角度和不同序列长度的数据。此外,我们没有像以前的研究一样使用UCR存档提供的分类任务作为源任务,而是使用自己的55个回归任务作为源任务,这比从UCR存档中选择分类任务更好
translated by 谷歌翻译
鉴于选择算法和/或配置问题,黑框优化(BBO)问题的搜索地面特征(BBO)问题的知识提供了有价值的信息。探索性景观分析(ELA)模型已在识别预定义的人类衍生特征和促进投资组合选择器方面取得成功,以应对这些挑战。与ELA方法不同,当前的研究提议将识别问题转变为图像识别问题,并有可能检测不含概念的机器驱动的景观特征。为此,我们介绍了景观图像的概念,这使我们能够每个基准函数生成图像实例,然后将分类挑战定位于各种函数的广义数据集。我们将其作为有监督的多级图像识别问题来解决,并应用基本的人工神经网络模型来解决它。我们方法的功效在无噪声的BBOB和IOHPRILER基准测试套件上进行了数值验证。这种明显的成功学习是朝着自动化特征提取和局部结构扣除BBO问题的又一步。通过使用这种景观图像的定义,并利用图像识别算法的现有功能,我们预见了像Imagenet一样的功能库的构建,用于训练依靠机器驱动功能的通用检测器。
translated by 谷歌翻译
在过去的几年中,对针对基于学习的对象探测器的对抗性攻击进行了广泛的研究。提出的大多数攻击都针对模型的完整性(即导致模型做出了错误的预测),而针对模型可用性的对抗性攻击,这是安全关键领域(例如自动驾驶)的关键方面,尚未探索。机器学习研究社区。在本文中,我们提出了一种新颖的攻击,对端到端对象检测管道的决策潜伏期产生负面影响。我们制作了一种通用的对抗扰动(UAP),该扰动(UAP)针对了许多对象检测器管道中的广泛使用的技术 - 非最大抑制(NMS)。我们的实验证明了拟议的UAP通过添加“幻影”对象来增加单个帧的处理时间的能力,该对象在保留原始对象的检测时(允许攻击时间更长的时间内未检测到)。
translated by 谷歌翻译
Deep active learning aims to reduce the annotation cost for the training of deep models, which is notoriously data-hungry. Until recently, deep active learning methods were ineffectual in the low-budget regime, where only a small number of examples are annotated. The situation has been alleviated by recent advances in representation and self-supervised learning, which impart the geometry of the data representation with rich information about the points. Taking advantage of this progress, we study the problem of subset selection for annotation through a "covering" lens, proposing ProbCover - a new active learning algorithm for the low budget regime, which seeks to maximize Probability Coverage. We then describe a dual way to view the proposed formulation, from which one can derive strategies suitable for the high budget regime of active learning, related to existing methods like Coreset. We conclude with extensive experiments, evaluating ProbCover in the low-budget regime. We show that our principled active learning strategy improves the state-of-the-art in the low-budget regime in several image recognition benchmarks. This method is especially beneficial in the semi-supervised setting, allowing state-of-the-art semi-supervised methods to match the performance of fully supervised methods, while using much fewer labels nonetheless. Code is available at https://github.com/avihu111/TypiClust.
translated by 谷歌翻译